Large Concept Models
https://ai.meta.com/research/publications/large-concept-models-language-modeling-in-a-sentence-representation-space/
Toma Tanaka(@fuyu_quant)
Meta
が発表した新しい
言語モデル
のアーキテクチャ「Large Concept Models」
トークンレベルの予測ではなく,文または概念レベルで予測を行うモデル.セマンティック空間に文をマッピングし,次にくる概念を予測し,概念から単語列へのdecodingを行う.decodingには拡散モデルを使っているそうです.…
https://video.twimg.com/tweet_video/GlrLBcHaoAA_pA3.mp4
LCM